Mô hình dự đoán là gì? Các công bố khoa học về Mô hình dự đoán
Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là m...
Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là một thuật toán máy học hoặc một công cụ phân tích dữ liệu khác. Mô hình dự đoán sẽ được đào tạo trên dữ liệu có sẵn, học các mẫu và quy tắc từ dữ liệu đó và sau đó được sử dụng để dự đoán kết quả trên dữ liệu mới. Mỗi mô hình dự đoán có những đặc điểm riêng, và sẽ được chọn dựa trên kiểu dữ liệu, mục tiêu dự đoán và các yêu cầu khác của vấn đề cụ thể.
Mô hình dự đoán là một biểu đồ hoặc công thức mô tả mối quan hệ giữa các biến đầu vào và biến đầu ra trong một hệ thống. Nó được xây dựng dựa trên các quy tắc và mẫu được học từ dữ liệu đào tạo. Mục tiêu của mô hình dự đoán là sử dụng mô hình đã học để dự đoán trạng thái, hành vi hoặc kết quả của các biến đầu ra mới khi chỉ có thông tin về biến đầu vào.
Các mô hình dự đoán có thể thuộc vào nhóm mô hình hồi quy, phân loại hoặc gom cụm, tùy thuộc vào loại dữ liệu đầu vào và loại dự đoán cụ thể. Một số mô hình dự đoán phổ biến bao gồm:
1. Mô hình hồi quy: Dùng để dự đoán giá trị liên tục của biến đầu ra. Ví dụ, mô hình hồi quy tuyến tính sử dụng công thức đươc biểu diễn dưới dạng `y = mx + c`, trong đó `y` là biến đầu ra dự đoán, `x` là biến đầu vào và `m`, `c` là các hệ số dự đoán.
2. Mô hình phân loại: Dùng để phân loại dữ liệu vào các nhóm, ví dụ như phân loại email vào hộp thư rác hay thư thường. Các mô hình phân loại phổ biến bao gồm cây quyết định, máy vector hỗ trợ (SVM) và học sâu.
3. Mô hình gom cụm: Dùng để phân loại dữ liệu thành các nhóm tương tự nhau dựa trên các đặc trưng công việc của chúng. Các mô hình gom cụm phổ biến bao gồm K-Means, K-Medoids và DBSCAN.
Để xây dựng một mô hình dự đoán, phương pháp đào tạo được sử dụng để tìm các quy tắc và mẫu từ dữ liệu huấn luyện. Dữ liệu huấn luyện thường được chia thành tập dữ liệu huấn luyện và tập dữ liệu kiểm tra để đánh giá hiệu suất mô hình. Mô hình dự đoán được đào tạo bằng cách tối ưu hóa hàm mất mát, tối thiểu hóa sai số giữa đầu ra dự đoán và giá trị thực tế của dữ liệu.
Danh sách công bố khoa học về chủ đề "mô hình dự đoán":
Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.
Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(
Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.
Đánh giá giá trị của hệ thống điểm Prostate Imaging Reporting and Data System (PI-RADS) cho khảo sát hình ảnh cộng hưởng từ đa thông số (mpMRI) tuyến tiền liệt nhằm phát hiện ung thư tuyến tiền liệt, và các thông số cổ điển như mức độ kháng nguyên tuyến tiền liệt đặc hiệu (PSA), thể tích tuyến tiền liệt và mật độ PSA, để dự đoán kết quả sinh thiết ở bệnh nhân nghi ngờ ung thư tuyến tiền liệt chưa từng sinh thiết.
Phân tích hồi cứu các bệnh nhân thực hiện mpMRI tại bệnh viện chúng tôi và sinh thiết tuyến tiền liệt lần đầu từ tháng 7/2010 đến tháng 4/2014. Sinh thiết tuyến tiền liệt được thực hiện qua ngã tầng sinh môn dưới hướng dẫn siêu âm qua trực tràng. Tổng cộng, 14 mẫu sinh thiết được lấy một cách hệ thống ở tất cả các bệnh nhân. Thêm hai mẫu sinh thiết mục tiêu bằng cách hợp nhất nhận thức được thêm vào mỗi tổn thương ở bệnh nhân có tổn thương nghi ngờ hoặc không rõ ràng trên mpMRI. Sử dụng hệ thống điểm PI-RADS phiên bản 2.0 để mô tả các phát hiện trên MRI. Phân tích đơn biến và đa biến được thực hiện để xác định các yếu tố dự đoán có ý nghĩa của ung thư tuyến tiền liệt và ung thư tuyến tiền liệt lâm sàng có ý nghĩa.
Tổng cộng, 288 bệnh nhân được phân tích. Tuổi trung vị của bệnh nhân, mức độ PSA, thể tích tuyến tiền liệt và mật độ PSA lần lượt là 69 tuổi, 7,5 ng/mL, 28,7 mL, và 0,26 ng/mL/mL. Kết quả sinh thiết cho thấy các dạng lành tính, ung thư không quan trọng về mặt lâm sàng, và ung thư quan trọng về mặt lâm sàng tương ứng với 129 (45%), 18 (6%) và 141 (49%) bệnh nhân. Phân tích đa biến cho thấy điểm số PI-RADS v2 và mật độ PSA là những yếu tố dự đoán độc lập cho ung thư tuyến tiền liệt và ung thư tuyến tiền liệt có ý nghĩa lâm sàng. Khi kết hợp điểm số PI-RADS v2 và mật độ PSA, điểm số PI-RADS v2 từ 4 trở lên và mật độ PSA từ 0.15 ng/mL/mL hoặc điểm số PI-RADS v2 là 3 và mật độ PSA từ 0.30 ng/mL/mL liên quan đến tỷ lệ phát hiện ung thư tuyến tiền liệt có ý nghĩa lâm sàng cao nhất (76–97%) trong lần sinh thiết đầu tiên. Trong nhóm bệnh nhân này có kết quả sinh thiết âm tính, 22% sau đó được chẩn đoán là ung thư tuyến tiền liệt. Ngược lại, điểm số PI-RADS v2 từ 3 trở xuống và mật độ PSA dưới 0.15 ng/mL/mL cho kết quả không có ung thư tuyến tiền liệt có ý nghĩa lâm sàng và không có thêm phát hiện ung thư tuyến tiền liệt trong các sinh thiết tiếp theo.
Sự kết hợp của điểm số PI-RADS v2 và mật độ PSA có thể giúp trong quá trình ra quyết định trước sinh thiết tuyến tiền liệt và trong chiến lược theo dõi ở bệnh nhân chưa từng sinh thiết. Bệnh nhân có điểm số PI-RADS v2 từ 3 trở xuống và mật độ PSA dưới 0.15 ng/mL/mL có thể tránh các sinh thiết không cần thiết.
Bài tổng quan này mô tả một số phương pháp và kỹ thuật hiện đang được sử dụng để đưa ra các mô hình in silico nhằm dự đoán các thuộc tính ADMET. Bài báo cũng thảo luận một số yêu cầu cơ bản đối với việc tạo ra các mối quan hệ ADMET có tính toán học có cơ sở thống kê và dự đoán, cũng như một số cạm bẫy và vấn đề đã gặp phải trong các nghiên cứu này. Ý định của các tác giả là giúp người đọc nhận thức rõ hơn về một số thách thức liên quan đến việc phát triển các mô hình in silico ADMET có ích cho quá trình phát triển thuốc.
Việc xác định mức độ kháng thể trong huyết thanh chống lại kháng nguyên bề mặt virus viêm gan B (anti-HBs) sau khi tiêm vắc-xin viêm gan B hiện nay là phương pháp đơn giản duy nhất có sẵn để dự đoán sự suy giảm sự bảo vệ và lập kế hoạch tiêm liều nhắc lại. Tổng cộng 3085 người nhận vắc-xin từ huyết tương và vắc-xin tái tổ hợp đã được theo dõi trong 10 năm để xác định động học sản xuất anti-HBs và xây dựng một mô hình toán học có thể dự đoán hiệu quả sự suy giảm mức độ anti-HBs. Mức đỉnh anti-HBs đạt được 68 ngày sau liều vắc-xin tái tổ hợp cuối cùng và 138 ngày sau liều vắc-xin từ huyết tương cuối cùng. Tuổi của người được tiêm vắc-xin ảnh hưởng tiêu cực đến mức độ anti-HBs và cũng ảnh hưởng đến thời gian cần thiết để đạt đến đỉnh anti-HBs. Mô hình toán học hai chiều (mức độ log10, thời gian log10) của sự suy giảm anti-HBs đã được xây dựng trên mẫu những người nhận vắc-xin tái tổ hợp và sau đó được kiểm chứng trên các mẫu khác của người nhận vắc-xin tái tổ hợp hoặc từ huyết tương. Tuổi tác, giới tính, loại vắc-xin (tái tổ hợp hoặc từ huyết tương), số liều vắc-xin (ba hoặc bốn) không ảnh hưởng đến mô hình toán học của sự suy giảm kháng thể. Chương trình có thể được tải xuống tại trang web: http://www2.stat.unibo.it/palareti/vaccine.htm. Việc đưa vào một xác định anti-HBs được thu thập sau khi đạt đỉnh, chương trình tính toán dự đoán sự suy giảm anti-HBs cá nhân và cho phép lập kế hoạch chính sách tiêm nhắc lại hiệu quả.
- 1
- 2
- 3
- 4
- 5
- 6
- 7